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基于 深度 时 空 卷 积 神经 网 络 的 人 群 异 常 行为 检测 和 定位 
胡 学 敏 ， 陈 钦 , 杨 ” 丽 '， 余 ” 进 ， 童 秀 迟 


(湖北 大 学 计算 机 与 信息 工程 学 院 , 武汉 430062) 


摘 要 : 针对 公共 场合 人 群 异 常 行为 检测 准确 率 不 高 和 训练 样本 缺乏 的 问题 ， 提 出 一 种 基于 深度 时 空 卷 积 神经 网 络 
的 人 群 异常 行为 检测 和 定位 的 方法 。 首 先 针对 监控 视频 中 人 群 行为 的 特点 ， 综 合 利用 静态 图 像 的 空间 特征 和 前 后 帧 
的 时 间 特 征 ， 将 二 维 卷 积 扩展 到 三 维 空间 ， 设 计 面 向 人 群 异 常 行为 检测 和 定位 的 深度 时 空 卷 积 神经 网 络 ; 为 了 定位 
人 群 异 常 行为 ， 将 视频 分 成 若干 子 区 域 ， 获 取 视 频 的 子 区 域 时 空 数据 样本 ， 然 后 将 数据 样本 输入 设计 的 深度 时 空 卷 
积 神 经 网 络 进行 训练 和 分 类 ， 实 现 人 群 异 常 行为 的 检测 与 定位 。 同 时 ， 为 了 解决 深度 时 空 卷 积 神经 网 络 训练 时 样本 
数量 不 足 的 问题 ， 设 计 一 种 迁移 学 习 的 方法 ， 利 用 样本 数量 多 的 数据 集 预 训练 网 络 ， 然 后 在 待 测 试 的 数据 集中 进行 
微调 和 优化 网 络 模型 。 实 验 结果 表明 ,该 方法 在 UCSD 和 Subway 公开 数据 集 上 的 检测 准确 率 分 别 达 到 了 99% 和 93% 
以 上 s 
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Abnormal crowd behavior detection and localization based on 
deep spatial-temporal convolutional neural networks 


Hu Xuemin, Chen Qin, Yang Li', Yu Jin, Tong Xiuchi 
(School of Computer Science & Information Engineering, Hubei University, Wuhan 430062, China) 


Abstract: To handle the issues of low accuracy and lacking training samples in abnormal crowd behavior detection in 
C. 2 public places, this paper proposes a method based on deep spatial-temporal convolutional neural networks in this paper. In 
View of the characteristics of crowd behavior in monitoring videos, a deep spatial-temporal convolution neural network for 
detecting abnormal crowd behavior is first designed by extending 2D convolution to the 3D space according to spatial 
features of static images and temporal features between the frames before and after the current frame. To locating abnormal 
crowd, this paper divides video frames into a number of subregions that obtain spatial-temporal samples. Then, the samples 
are input into the designed deep spatial-temporal convolutional neural network for training and classification, whose results 
are used to detect and locate abnormal crowd. In the meanwhile, this paper utilizes a transfer learning method to deal with 
the issue of lacking training samples when training the deep spatial-temporal convolutional neural network, where datasets 
with more training samples are used to pre-train the network which is fine-tuned and optimized on testing datasets with 
fewer samples. Experimental results show that the detection accuracies on UCSD and Subway open datasets are greater than 
99% and 93%, respectively. 

Key words: crowd abnormal behavior detection; deep spatial-temporal convolutional neural network; transfer learning; data 


augmentation 
0 引言 基于 方向 、 速 度 和 灶 的 直方 图 描述 人 群 的 异常 ，Li 等 人 中 则 
村 是 出 一 种 动态 混合 纹理 模型 来 实现 人 群 异常 的 检测 。 这 类 方 


FEF 来， 随 着 城市 人 群 安全 问题 日 益 突 出 ， 视 频 监 控 显 。 法 能 够 有 效 检测 并 定位 异常 人 群 行为 ， 但 是 模型 构建 复杂 并 
得 尤为 重要 。 传 统 视频 监控 通过 工作 人 员 观 察 监控 画面 获知 且 检 测 率 不 高 。 第 二 类 则 是 基于 全 局 统计 的 方法 ， 从 整体 提 
异常 情况 ， 这 种 方法 不 仅 主观 性 强 ， 而 且 浪费 人 力 、 效 率 低 ”” 取 某 些 特征 ， 如 角 点 、 梯 度 、 光 流 等 ， 然 后 通过 特征 分 类 的 
下 。 因 此 ， 关 于 人 群 异常 行为 检测 与 定位 的 智能 视频 监控 系 ”方法 来 实现 人 群 异常 行为 检测 。 王 乔 等 人 四 提出 一 种 基于 整 
统 具 有 王 


二 


有 重要 研究 意义 和 商业 价值 。 体能 量 模型 表示 的 方法 来 较 辨 识 正常 行为 中 的 异常 行为 ; 
方面 做 了 不 。 晓 芳 等 人 外 对 输入 的 视频 使 用 梯度 方向 直方 图 特征 和 光 流 


前 ， 国 内 外 研究 人 员 已 经 在 人 群 异常 检 洲 


二 


3 


少 研究 工作 , 并 取得 了 一 定 成 果 。 相关 方 法 主要 分 为 两 大 类 。 ” 方 图 特征 识别 人 体 动作 ,最 后 结合 基于 能 量 的 最 小 二 乘 双 分 
第 一 类 是 基于 局 部 目标 检测 的 方法 ， 该 方法 通常 利用 动态 模 。 界面 六 持 向 量 机 完成 人 体 动作 的 识别 ， 姬 丽 娜 等 人 "提出 一 
型 对 人 和 群 行为 进行 建 模 。Chaudhry 等 人 凯利 用 面向 对 象 的 光 ”种 基于 混合 高 斯 模型 和 尺度 不 变 特征 变换 特征 的 人 群 数量 统 
学 直方 图 并 结合 分 类 器 来 识别 人 群 行为 ; Colque 等 人 R31 利用 ” 计 分 析 方 法 。 这 类 算法 的 缺点 是 受 环 境 中 光线 影响 比较 大 ， 
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准确 率 不 高 。 
多 1 ”时 空 卷 积 神经 网 络 
一 测试 样本 A 传统 卷 积 神经 网 络 使 用 二 维 卷 积 核对 图 像 进行 特征 提 


取 ， 卷 积 神经 网 络 中 每 个 卷 积 层 都 包含 多 个 不 同 的 卷 积 核 ， 
每 个 卷 积 核 提 取 不 同 的 特征 。 通 常 一 个 完整 的 卷 积 神经 网 络 
包含 多 层 卷 积 层 , 低层 卷 积 层 提取 低级 特征 ， 如 边缘 、 线 条 、 
角落 ; 高 层 卷 积 层 提 取 高 级 特征 , 如 目标 对 象 各 部 分 的 轮廓 。 
r 卷 积 层 提取 的 特征 最 后 通过 全 连接 层 组 合成 完整 的 目标 对 
a 象 。 传 统 卷 积 神经 网 络 可 以 有 效 地 对 图 像 进 行 特 征 提取 和 
标 分 类 ， 但 是 仅 限 于 静态 图 像 ， 无 法 对 视频 中 连续 视频 帧 2 
闻 的 时 间 特 征 进行 提取 。 时 空 卷 积 神经 网 络 和 传统 卷 积 神经 
「 下 网 络 的 本 质 区 别 在 于 网 络 所 使 用 卷 积 核 的 不 同 , 如 图 2 所 示 。 
传统 卷 积 神经 网 络 中 所 使 用 的 二 维 卷 积 核 提 取 特 征 时 ， 只 在 
图 像 上 进行 行 和 列 的 卷 积 。 而 连续 视频 帧 中 ， 除 了 每 一 帧 的 
图 像 特 征 ， 连 续 帧 之 间 还 存在 时 间 关 联 性 。 基 于 视频 分 析 的 
人 和 群 异常 行为 检测 中 ， 人 群 的 行为 特征 在 视频 中 表现 为 空间 
测试 样本 B 和 时 间 的 关联 性 。 因 此 时 空 卷 积 神经 网 络 采 用 三 维 卷 积 核 ， 
图 1 基于 DSTCNN 的 人 群 异常 行为 识别 与 定位 流程 图 其 卷 积 计 算 的 内 容 除了 包含 每 一 帧 图 像 的 行 和 列 像素 点 以 

Fig.1 Flow chart of abnormal crowd behavior detection and ， 还 包含 前 后 帧 对 应 位 置 的 像素 点 ， 即 时 空 卷 积 神经 网 络 

localization based on DSTCNN 除了 能 够 提取 单个 视频 帧 的 图 像 特 征 ， 还 能 提取 连续 帧 之 间 

近年 来 , 卷 积 神经 网 络 (convolution neural network, CNN) 的 时 间 特 征 。 时 空 卷 积 神经 网 络 的 每 一 层 从 输入 到 输出 的 计 
凭借 其 优良 的 特征 提取 能 力 在 计算 机 视觉 领域 得 到 广泛 关 算 方式 如 式 (1) 所 示 。 
注 。 传 统 卷 积 神经 网 络 能 够 对 二 维 图 像 进行 有 效 的 特征 提取 ， 

本 承 ， A on -ol ZE n+ (1) 
从 而 实现 目标 检测 与 分 类 。Chen 等 人 借助 卷 积 神经 网 络 实 i 
在 夜景 中 识别 汽车 转向 灯 ; 文献 [9] 则 利用 卷 积 神经 网 络 对 其 中 : y 表示 某 一 层 的 输出 ; o 表示 激活 函数 ，i、j、 上 表示 
的 年 龄 和 性 别 进行 判断 。 传 统 卷 积 神经 网 络 仅 能 够 在 二 维 5 Rs a A a 
像 上 提取 特征 , 但 是 无 法 应 用 于 三 维 的 视频 数据 .文献 [10] 。 入 直上 对 应 位 置 的 坐标 。 Xi 表示 每 一 层 答 入 上 对 应 于 Gi,7， 
出 了 基于 传统 CNN 的 人 群 异常 行为 检测 ， 但 是 只 使 用 了 有 D 处 与 对 应 卷 积 核 尺寸 大 小 相等 的 局 部 区 域 ， 如 图 2 右边 立 
动 方向 、 速 度 和 加 速度 三 者 的 运动 显著 图 ， 丢 失 了 大 量 信 方 体 中 阴影 部 分 所 示 ; 芒 表示 卷 积 核 的 权重 矩阵; b 表示 对 
， 导 致 能 够 检测 的 异常 行为 有 限 。 针 对 这 种 问题 ， 有 学 者 应 卷 积 核 的 偏 置 值 。 
出 能 够 应 用 于 视频 中 时 空 特 征 提 取 的 时 空 卷 积 神经 网 络 ， y/o LA /和 
并 应 于 与 人 体 行为 的 识别 1。 此外， 训练 一 个 深度 网 络 需要 。 2。 人群 异常 行为 检测 与 定位 算法 
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大 规模 、 多 样 化 的 训练 样本 ， 而 实际 的 人 群 异常 行为 检测 中 为 实现 人 群 异常 的 定位 ， 本 文 首先 将 完整 的 视频 画面 分 
往往 难以 获取 足够 的 样本 ， 从 而 导致 检测 效果 不 理想 。 成 若干 子 区 域 并 编号 ,对 每 个 子 区域 使 用 DSTCNN 进行 人 群 
针对 现 有 的 人 群 异常 检测 方法 检测 率 不 高 、 传 统 CNN ”异常 行为 检测 ， 若 某 个 子 区 域 检测 为 异常 ， 则 可 根据 编号 找 


无 法 提取 时 间 相 关 特 征 、 以 及 训练 样本 缺乏 的 问题 ， 本 文 提 到 对 应 的 视频 区 域 ， 实 现 人 群 异常 行为 的 检测 与 定位 。 
出 一 种 基于 深度 时 空 卷 积 神经 网 络 (Deep Spatial-temporal 2.1 深度 时 空 卷 积 神经 网 络 结构 设计 
Convolution Neural Network, DSTCNN) 的 人 群 异常 行为 检测 本 文 设计 的 面向 人 群 异常 行为 检测 和 定位 的 深度 时 空 卷 
与 定位 的 方法 ， 如 图 1 所 示 。 首 先 ， 基 于 传统 CNN， 结 合 时 积 神经 网 络 结构 ， 如 图 3 所 示 ， 其 中 包含 8 个 卷 积 层 、5 个 
间 特 征 ， 设 计 DSTCNN 的 结构 ;然后 基于 DSTCNN， 设 计 池 化 层 和 2 个 全 连接 层 以 及 1 个 输出 层 。 为 提取 人 群 行 为 信 
人 和 群 异常 行为 检测 和 定位 的 方法 ， 针 对 数据 不 足 问题 ， 提 出 息 ， 以 连续 若干 帧 一 定 大 小 视频 子 区 域 作 为 输入 。 由 于 本 文 
基于 迁移 学 习 的 DSTCNN 训练 方法 。 在 数据 量 较 多 的 数据 集 设计 深度 时 空 卷 积 神经 网 络 主要 目的 在 于 检测 异常 ， 因 此 输 
上 训练 得 到 检测 率 较 高 的 DSTCNN 模型 ,将 此 模型 通过 迁移 出 为 两 类 ， 正 常 与 异常 。 
学 习 (transfer learning, TF) 的 方法 迁移 到 其 他 数据 集 对 应 模型 实验 证 明 3X3X3 的 卷 积 核 尺 寸 对 于 视频 处 理 是 一 种 合 
上 并 训练 。 实 验 结果 表明 本 文 的 方法 与 现 有 方法 相 比 ， 具 有 适 的 尺寸 5， 因此 本 文中 的 深度 时 空 卷 积 神经 网 络 的 卷 积 核 
尺寸 统一 固定 为 3X3X3; 卷 积 步 长 统一 设 定 为 1X1X1。 除 
第 一 层 池 化 核 大 小 设 定 为 1X2X2， 步 长 设 定 为 1X2X2 以 
外 ,其 他 层 的 池 化 核 大 小 统一 设 定 为 2X2X2, 步 长 设 定 为 
a | X2X2。 池 化 方式 统一 采用 最 大 池 化 ， 并 将 池 化 层 间隔 一 
二 一 或 两 层 置 于 卷 积 层 中 间 ， 对 卷 积 层 信息 降 采 样 ， 用 以 在 保 
A 重要 信息 和 减少 相关 度 相 对 较 低 信息 、 降 低 计算 复杂 度 的 
| 时 ， 提 升 卷 积 神经 网 络 的 泛 化 能 力 。 而 第 一 层 池 化 层 1X2X 
: 2 池 化 核 与 池 化 步 长 的 设计 可 以 避免 视频 中 时 序 信息 被 过 早 
性 积 2 地 降 采 样 。 第 1~4 层 卷 积 层 用 于 提取 低级 特征 ， 第 5~8 层 郑 
图 2 ”二 维 卷 积 与 三 维 卷 积 职 层 用 于 提取 高 级 特征 ， 低 级 特征 较为 通用 ， 种 类 较 少 ， 高 
Fig.2 2D convolution and 3D convolution 级 特征 更 为 具体 , 种 类 较 多 , 因此 第 1 层 卷 积 层 设 置 64 个 卷 
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积 核 ， 第 2 层 卷 积 层 设置 128 个 卷 积 核 ， 第 3~5 层 卷 积 层 设 


置 256 个 卷 积 核 ， 第 6~8 层 卷 积 层 设置 512 个 卷 积 核 。 通 过 
卷 积 与 池 化 得 到 的 特征 与 两 层 全 连接 层 连接 组 成 具体 目标 对 
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象 ， 最 后 通过 输出 层 得 到 卷 积 神经 网 络 对 输入 视频 的 分 类 概 


EE 寺 


10X30X30X3 10X30X30X64 10X15X15X64 10X15X15X128 
C1 Sl C2 S2 C3 ~ 
一 一 一 一 
C4 
\1X1xX1x512 2X2X2X512 3X4X4X512 3X4X4X256 
| | 和 
MD 
四 2 
中 人 2X2X2x512 2X2X2X512 
BB LS & 3X4X4X256 
只 5X8X8Xx256 
图 3 面向 人 群 异常 行为 检测 和 定位 的 深度 时 空 卷 积 神经 网 络 结构 


Fig.3 Structure of deep spatial-temporal convolutional neural network for crowd abnormal behavior detection and localization 


在 每 一 层 卷 积 层 以 及 全 连接 层 之 后 ， 本 文 使 用 
ReLu(Rectified linear unit, 修 正 线性 单元 ) 激 活 函 数 ， 提升 神经 


型 。 若 某 个 子 区 域 被 识别 为 异常 ， 则 根据 编号 确定 其 在 视频 
画面 中 的 位 置 ， 实 现 人 群 异常 行为 的 定位 。 


网 络 模型 的 线性 表达 能 力 。 为 输出 视频 的 分 类 概率 ， 输 出 层 
采用 Softmax 函数 。 最 后 结合 交叉 焙 函数 与 L2 正则 化 构 
造 损失 函数 , 并 利用 Adam 优化 算法 更 新 优化 神经 网 络 模型 。 
交叉 粒 函 数 如 式 C2) 所 示 。 


1 
C= ynatd -ynd -a) 


py 


(2) 


3 ”深度 时 空 卷 积 神经 网 络 的 训练 方法 


深度 神经 网 络 的 训练 和 优化 需要 大 规模 、 多 样 化 的 数据 
样本 ， 而 对 于 人 群 异常 行为 分 析 ， 异 常情 况 通 常 以 小 概率 发 
生 , 因此 难以 获取 足够 的 训练 样本 , 特别 是 异常 行为 的 样本 。 
现 有 的 公开 数据 集中 ， 同 样 存 在 异常 行为 样本 数量 较 少 、 正 


其 中 : C 表示 损失 值 ; n 表示 样本 总 量 ; x 表示 样本 ; y 表示 
期 望 的 输出 ( 即 标签 ); a 表示 实际 的 输出 , 具体 表达 式 如 式 (3) 
所 示 。 


六 堂 b> sg 


Ey Ba En Bl..s 


定位 


图 4 异常 检测 与 定位 
Fig.4 Anomaly detection and location 

异常 行为 的 检测 与 定位 

为 实现 人 群 异 常 行为 的 定位 ， 本 文 将 完整 视频 画面 划分 
为 若干 个 大 小 相同 的 局 部 子 区 域 ， 相 邻 子 区 域 互 不 重 营 。 每 
个 子 区 域 设置 一 个 唯一 编号 ， 每 个 编号 对 应 不 同 的 子 区 域 ， 
如 图 4 所 示 。 为 实现 对 每 个 子 区 域 进行 人 群 异常 行为 检测 ， 
本 文 将 每 个 子 区 域 的 连续 视频 帧 作为 输入 , 训练 得 DSTCNN 
模型 ， 在 检测 人 群 异常 行为 时 ， 同 样 将 完整 视频 划分 为 局 部 
子 区 域 ， 再 将 每 个 局 部 子 区 域 输入 已 训练 好 的 DSTCNN 模 


2.2 


常 和 异常 样本 数量 相差 较 大 的 问题 ， 导 致 难以 训练 实用 的 深 
度 神 经 网 络 。 针 对 这 种 情况 ， 本 文 设计 一 种 基于 数据 扩充 和 
迁移 学 习 的 深度 神经 网 络 训练 方法 ,在 训练 DSTCNN 之 前 首 
先 将 训练 样本 数据 进行 数据 扩充 ， 使 用 扩充 后 的 训练 样本 训 
练 得 到 优化 后 的 DSTCNN 模型 ， 然 后 使 用 迁移 学 习 的 方法 ， 
将 此 模型 迁移 到 其 他 DSTCNN 模型 上 , 实现 少量 样本 的 训练 
和 优化 。 
3.1 数据 扩充 

图 像 的 亮度 、 对 比 度 、 噪 声 等 属于 图 像 的 二 维特 征 ， 且 
这 些 特征 对 于 人 群 的 行为 没有 影响 ， 因 此 本 文 针对 训练 样本 
数据 不 足 及 正常 样本 和 异常 样本 数量 相差 较 大 问题 ， 通 过 增 
加 对 比 度 、 降 低 对 比 度 、 增 加 亮度 、 降 低 亮度 、 添 加 椒盐 噪 
声 、 进 行 高 斯 模糊 等 6 种 方式 , 对 训练 样本 进行 数据 扩充 (data 
augmentation, DA) 使 其 数量 增加 为 原来 的 7 倍 , 如 图 5 月 
同时 ， 通 过 保留 数量 较 少 的 异常 样本 并 随机 去 除数 量 相对 较 
多 的 正常 样本 ， 使 正常 样本 与 异常 样本 比例 为 2: 1。 利 用 以 
上 方式 ， 可 以 改变 视频 中 每 一 帧 的 图 像 信 息 ， 增 加 样本 多 样 
性 ， 同 时 保留 人 群 原 有 的 行为 特征 ， 并 减 小 正常 样本 与 异常 
样本 数量 差异 。 从 图 5 中 可 以 看 出 ， 本 文 的 数据 扩充 方法 能 
够 在 一 定 程度 上 有 效 增加 训练 数据 的 数量 。 
3.2 ”基于 迁移 学 习 的 DSTCNN 训练 方法 
对 于 一 些 人 群 异常 行为 检测 的 场景 或 者 公开 数据 集 ， 其 
中 异常 样本 数据 过 于 稀少 ， 即 使 在 经 过 数据 扩充 后 样本 数据 
仍然 不 足 。 另 外 ， 如 果 只 是 通过 数据 扩充 来 实现 正 负 样 本 的 
平衡 ， 容 易 引 起 过 拟 合 的 问题 。 因 此 ， 本 文 提 出 一 种 基于 迁 
移 学 习 的 训练 方法 ， 实 现 DSTCNN 的 训练 和 优化 。 
当 源 域 数 据 与 目标 域 数 据 存 在 部 分 共享 模型 参数 时 ， 即 
两 个 数据 集 之 间 存 在 部 分 相似 的 基础 特征 ， 而 该 部 分 特征 可 
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利 | 
移 学 习 09。Long 等 人 0 


明 学 敏 ， 等 : 基于 深度 时 


提出 一 种 DAN 结构， 通过 迁移 并 固 
定 卷 积 神经 网 络 低层 卷 积 层 网 络 参数 ， 在 特定 数据 


相同 卷 积 神经 网 络 进行 提取 的 时 候 ， 可 基于 模型 进行 迁 


DSTCNN 的 前 4 层 


上 微调 


高 层 卷 积 层 及 全 连接 层 的 方法 ， 在 Office-31、Office-10 + 


Caltech-10 数据 集 上 取得 较 高 识别 率 。 由 于 不 同 的 人 群 
数据 集中 ， 人 群 行为 也 存在 部 分 相似 的 特征 
据 量 相对 较 多 的 UCSD 数据 集 上 训练 得 到 DSTCNN 模型 ， 
再 将 此 模型 通过 迁移 学 习 迁 移 到 Subway 数据 集 上 的 


数 ; 


DSTCNN 模型 ， 如 图 6 所 示 。 


D;, 将 Subway 数据 集 作为 


忆 此 本 文 在 数 


在 进行 迁移 学 习 过 程 中 , 本文 将 UCSD 数据 集 作 为 源 域 
标 域 D:， 其 中 : 


D, = 局 D,={x,y}, 有 人 =X,,Y =Y 


Xi、 姓 分 别 表示 第 i、j 个 样本 ，yi:、yj 表 示 对 应 的 标签 。 


Xs、Xt 分 别 表 示 源 域 及 
源 域 及 目标 域 的 标签 空间 。 


标 域 的 特征 空间 ，Ys、Yt 分 别 表示 


首先 利用 D, 学 习 得 到 分 类 器 : fi: x 一 ys 来 预测 D; 的 标签 


ys ， 其 中 Xs 表示 源 域 样本 ， fi 六 不 Ds 对 应 的 目标 函数 ， 且 
Xs ED;; 为 得 到 : fy: x 一 ys, 即 用 来 预测 Di 对 应 标签 yy 的 分 类 器 ， 


如 下 过 程 : 


增加 对 比 度 


1 
AN 


椒盐 噪声 


降低 对 比 度 


其 中 所 表示 Di 对 应 的 目标 函数 ，x 表示 


目标 域 样本 ,及 


Di 重新 学 习 ， 完成 


ED 本 文 将 fi: Xs 一 ys 在 一 定 条 件 下 利 ) 


图 5 数据 扩充 样 例 


增加 亮度 


降低 亮 


二 


Fig. 5 Data augmentation samples 
fo: x yr = retrain(fi: xs 一 ys) s.t. Neti[1~/l] = Netz[1~N] = K, 


(Xx, y)ED: 


其 中 : retrain 表示 重新 训练 过 程 ，Neti[1~ 中 、Neto[1~ 有 ] 分 别 表 


示 Ds;. Di 对 应 的 神经 网 络 的 第 1 层 到 第 1 层 参 数 ，K 表示 常 


数 和 矩阵 ， 重 新 训练 过 程 中 天 不 变 。 


为 确定 1 值 ， 本 文 分 别 对 


1 取 不 同 值 
优 值 /=4。 


训练 网 络 时 ， 在 数据 扩充 的 基础 上 ， 本 文 将 两 个 数据 全 
关上 训练 DSTCNN， 


划分 局 部 子 区 域 , 首先 在 UCSD 数据 自 


在 UCSD 数据 集 上 进行 对 比 实验 ， 最 终 确定 最 


7 


取 


连续 N( 本 文中 N=10) 帧 UCSD 数据 集 局 部 子 区 域 视频 作为 输 
入 ， 初 始 化 DSTCNN 模型 参数 后 进行 训练 ， 再 利用 
数据 集 测试 集 对 DSTCNN 模型 进行 i 


唐 


UCSD 
， 得 到 优化 后 的 


EF 测 


DSTCNN 模型 ， 由 于 在 UCSD 数据 集 与 Subway 数据 集中 ， 


姑 此 可 利用 相 
数据 集 上 训练 


Subway 数据 集 的 D 
顺 Subway 数 
前 4 层 卷 积 层 之 外 的 参数 ， 得 到 适合 Subway 数 ] 


续 N 


常 行为 检测 和 


顽童 泛 季 


图 6 UCSD 数据 和 


空 卷 积 神 经 网 络 的 人 群 异 常 行为 检测 和 定位 


提取 的 特征 是 两 个 数 所 
同 结构 神经 网 络 进行 特 包 
得 到 的 DSTCNN 模型 前 4 层 卷 积 层 直接 迁移 到 
固定 该 4 层 网 络 参 数 ， 取 连 
区 域 视 频 作为 输入 ， 更 新 除 
居 集 人 群 异 


STCNN 上 ， 
居 集 的 局 部 子 
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民 仙 


F 提 取 ， 即 ; 


定位 的 DSTCNN 模型 。 


UCSD 数 据 集 


“OOOO 
“[ |] 
mw| | 
SS 


长 到 Subway 数据 和 
(Ci~Cs: 第 1~8 个 卷 积 层 ,FC1~ FC2:2 个 


Subway 数 据 集 


二 

Docoo 上 
“O000 | oooo 

| oooo | 

[ 

| 

输出 层 (DC) 


的 DSTCNN 模型 迁移 学 习 


全 连接 层 ) 


状 所 共有 的 特征 ， 
等 在 UCSD 


Fig.6 Transfer Learning of DSTCNN model from UCSD dataset to 
Subway dataset 


4 ”实验 结果 与 分 析 


本 文 进行 实验 的 硬件 环境 : 


CPU 为 Core i7-7700K 


(Quad-core 4.2 GHz) 、 显 卡 为 NVIDA GTX 1080ti、 内 存 为 
32 GB。 软 件 环境 : 计算 机 操作 系统 为 Windows 10 pro、 


DSTCNN 训练 测试 

本 文 利用 UCSD 以 及 Subway 这 两 个 
集 由 美国 加 利 福 尼 
该 数据 集 包含 场景 


中 UCSD 数据 
室 提供 09。 


常 刷 卡 进 入 入 
翻越 进入 入 口 


§ 
Era 


走出 来 ， 异 常 


数据 两 部 分 ， 


为 了 在 


i 对 本 


行为 由 


为 保 订 


也 铁 入 口 


FF 台 为 TensorFlow1.2、Python3.5 。 


于 源 的 数据 集 。 


以 及 出 


-二 
| 


E 训 练 时 


寺 


行为 相对 较 多 的 视频 作为 1 
尺寸 上 人 


能 


中 出 现 异常 1 


区 域 取 连续 
包含 人 


其 余 情况 子 


小 


10 


三 | 


量 ， 


| 分 的 子 
陆 作为 一 个 
本 的 子 区 域 标注 


越 进入 。 


中 的 方法 进行 


预 处 型 


本 。 


空 视频 ， 


州 统计 学 习 视 觉 计 算 实验 
和 场景 二 两 个 人 群 行走 视 
频 ， 其 视频 像素 分 辨 率 分 别 为 238X158、360X240。 视 频 中 
正常 行为 是 正常 行走 的 人 群 ， 而 异常 的 行为 包括 骑 

驾驶 汽车 、 踩 滑板 、 怪 
自 于 Adam 等 人 ， 包 含 H 
像素 分 辩 率 均 为 512X384L171。 对 于 入 口 
常 行为 表现 为 从 入 


行车 、 

轮椅 的 老人 等 行为 ; Subway 数据 集 源 
口 的 两 个 监 ] 
视频 ,正常 行为 是 正 
口 出 来 、 不 刷卡 强行 
口 视 频 ， 正 常 行 为 则 是 正常 从 出 口 
| 是 强行 从 出 口 和 
本 文 将 UCSD 及 Subway 数据 集 分 为 
异常 样本 的 数 
| 练 数据 ， 
将 人 群 中 的 个 


| 练 数据 以 及 测试 
本 文选 取 异 常 
其 余 的 作为 测试 数据 。 
本 、 人 群 与 障碍 物 分 离 ， 并 
且 最 大 限度 包含 人 体 行 为 信息 ，UCSD 数据 集 划 
大 小 为 30x30 像素 ，Subway 数据 集 蕊 
60x60 像素 ， 同 一 子 
青 况 时 , 所 
又 域 均 标 注 为 正常 村 


分 的 子 区 域 
区 域 大 小 为 
本 。 当 视频 
为 异常 样本 ， 
对 训练 数据 按照 3.1 节 
E， 得 到 训练 数据 ， 数 据 扩充 前 后 样本 数 
量 、 正 常 与 异常 样本 比例 如 表 1 所 示 。 可 以 看 出 ，Subway 
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数据 集中 包含 的 人 群 异 常 行为 的 样本 ， 远 远 无 法 达到 训练 一 
个 深度 神经 网 络 的 要 求 。 
为 证 明 扩 充 数据 以 及 迁移 学 习 的 有 效 性 ， 本 文 在 UCSD 


以 及 Subway 两 个 数据 集 的 每 


不 进行 数 


居 扩 


充 直 接 训 


个 场景 上 都 进行 了 4 组 实验 : 


练 DSTCNN、 进 行 数据 扩充 后 训练 


DSTCNN、 不 进行 数据 扩充 并 结合 迁移 学 习 训 练 DSTCNN、 
进行 数据 扩充 后 结合 迁移 学 习 训 练 DSTCNN .其 中 ,对 UCSD 


个 场景 


方 框 区 域 即 为 异常 


， 其 场景 一 和 场景 二 样本 相似 度 较 大 ， 因 此 训练 时 合 


起 训练 ， 但 测试 时 分 场景 一 和 场景 二 两 个 场景 


区 域 ， 对 


Subway 数据 集 ， 其 出 口 和 入 


两 个 场景 样本 差异 较 大 ， 
数据 集 的 实验 结果 如 医 


数 
并 
单独 测试 。 UCSD 数据 集 实验 结果 如 图 7(a)-(d) 所 示 ， 图 中 黑 
色 
口 
数 


本 文 基于 每 个 测试 数据 集 绘制 受 试 者 
Operating Curve，ROC)， 并 计算 出 


寻 此 分 开 训 练 及 测试 。Subway 


8(a)-(d) 所 示 。 为 定量 描述 实验 结果 ， 


作 特 性 曲线 (Receiver 
ROC 曲线 下 的 面积 (Area 


Under the Curve, AUC), UCSD 数据 集 的 场景 一 、 场 景 二 以 及 


Subway 数据 自 


图 8(e)(， 其 


AUC 的 值 如 表 2 所 示 。 另 外 ,为 验证 
的 有 效 性 ， 本 文 将 实验 结果 与 几 种 经 典 算法 HOOFM、 


线 分 别 如 图 7(e)(f)、 


本 文 方法 


HOFMD、HOFMEDB、MDTtemporal 、MDTspatial 册 进行 


对 比 ， 结 果 如 表 3 所 示 。 根据 实验 结果 ,可 以 得 出 以 下 结论 : 

a) 本 文 设 计 的 DSTCNN 模型 能 够 有 效 检测 和 定位 多 种 
人 群 异常 行为 。- DSTCNN 通过 提取 二 维 图 像 特征 和 视频 序列 
和 寺 征 ， 表 达 复 杂 的 人 群 行为 ， 因 此 本 文 方法 能 够 检测 和 定位 


多 种 不 同 的 人 群 异常 行为 。 如 图 
中 检测 出 的 翻越 地 铁 入 口 的 人 群 。 
b) 本 文 提出 的 数据 扩充 和 基于 迁移 学 习 的 训练 方法 , 能 
了 效 提 高 人 群 异常 行为 检测 的 准确 率 。 本 文通 过 数据 扩充 
本 的 数量 以 及 多 样 性 ， 同 时 结合 迁移 学 习 优化 


够 
增加 了 训练 检 


7(a) 中 检测 出 的 汽车 、 图 


8(a) 


DSTCNN 模型 ， 使 其 即使 在 训练 样本 数量 很 少 的 情况 下 ， 也 
能 够 准确 提取 人 和 群 行为 特征 并 分 类 ， 从 而 提高 了 人 和 群 异常 行 


(a) 场 景 一 (汽车 ) 


(a) Scene l(cars) 


(b) 场 景 一 (轮椅 ) 
(b) Scene 1(Wheelchairs) 


一 三 - 场景 一 无 扩充 AUC=0. 8311 
一 9 一 场景 一 有 扩充 AUC=0. 9960 
一 FP 一 场景 一 无 扩充 加 迁移 学 习 AUC=0. 9919 
一 一 场景 一 有 扩充 加 迁移 学 习 AUC=0. 9974 


0.4 


0.6 0.8 1 .0 
假 阳性 率 (FPR) 


(e) UCSD 场景 


ROC 曲线 及 AUC 


(e) ROCs and AUCs of Scene 1 in UCSD dataset 


， 等 : 基于 深度 时 空 卷 积 神经 网 络 的 人 群 异常 行为 检测 和 定位 
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为 检测 的 准确 率 。 例 如 表 3 中 UCSD 数据 集 的 场景 一 通过 数 


据 扩充 以 及 迁移 学 习 的 方法 将 AUC 
中 Subway 数 寺 


0.0539 。 


避 集 的 入 口 


法 ， 比 现 有 经 


方法 在 公 


别 通过 数据 扩 


DSTCNN 进行 


三 


充 与 迁移 学 习 在 数据 层面 及 模型 层 
天 化 ， 最 终 在 UCSD 数据 集 与 Subway 数据 集 
上 得 到 的 测试 结果 AUC 均 高 于 对 比 的 几 种 经 
UCSD 数据 集 场景 二 的 AUC 更 是 达到 了 0.9994， 相 比 对 比 
方法 中 最 好 的 AUC 为 0.899 高 出 0.1004。 此 外 ,在 正常 和 异 
常人 群 样本 数量 悬殊 的 情 
络 模型 比 只 进行 迁移 学 习 效果 好 。 迁 移 学习 能 够 解决 因数 据 
量 较 少 导致 的 深度 神经 网 
处 理 数 据 正 负 样 本 数量 悬殊 的 问题 。 
对 正常 和 异常 人 群 的 样本 比例 进行 了 调整 ， 
训练 得 到 的 模型 性 能 优 于 仅 使 用 迁移 学 习 训 练 得 到 的 深度 神 


下 提升 了 0.1663; 表 3 
值 通过 相同 方法 提升 了 


场景 AUC 


c) 本 文 基于 DSTCNN， 结 合 数据 扩充 与 迁移 学 习 的 方 


中 的 检测 率 更 高 。 本 文 分 


田 对 


F 数 据 


方法 ， 其 中 


况 下 ， 只 进行 数据 扩充 训练 神经 网 


络 性 能 不 高 的 问题 ， 但 是 无 法 有 效 
本 文 对 数据 进行 扩充 后 
因此 数据 扩充 后 


经 网 络 模型 。 
表 1 不 同 数据 集 的 样本 数量 
Tab.1 Sample numbers of different datasets 
训练 测试 
数据 集 场景 有 无 扩充 _..,、 i et i 
正常 样本 异常 样本 正常 样本 异常 样本 
1332 666 1388 12 
场景 一 
有 9324 4662 = 二 
ESD 无 1332 666 3398 58 
场景 二 
有 9324 4662 , = 
入 无 164 82 2796 36 
有 1148 574 = 
Subway 
i 无 108 54 2396 6 
[an 
有 756 378 = = 


(0) 场 景 二 ( 


(c) Scene 2(Bicycles) 


Ei 
站 下 dns i 

(qd) 场景 二 (滑板 与 自行 车 ) 
(d) Scene 2(Skateboards and bicycles) 


真 阳性 率 (TPR) 


(f) UCSD 场景 二 ROC | 


0.2 


一 村 -场景 二 无 扩充 AUC=0. 9227 
一 @ 一 场景 二 有 扩充 AUC=0. 9993 

-他 -场景 二 无 扩充 加 迁移 学 习 AUC=0. 9877 
一 一 场景 二 有 扩充 加 迁移 学 习 AUC=0. 9994 


0.4 0.6 
假 阳 性 率 (FPR) 


线 及 AUC 


(f) ROCs and AUCS of Scene 2 in UCSD dataset 


图 7 UCSD 数据 集 测试 结 


Fig.7 Experimental results in UCSD dataset 
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(b) 入 口 场景 (二 ) 
(b) Entrance (2) 


08 


02] 


0.0 


一 徊 -入 口 无 扩充 AUC=0. 8792 
一 8 入 口 有 扩充 AUC=0. 8112 
一 9 入 口 无 扩充 加 迁移 学 习 AUC=0. 8974 
一 一 入 口 有 扩充 加 迁移 学 习 AUC=0. 9331 
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(e) Subway 入 
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信阳 性 于 (PPR) 
场景 ROC 曲线 及 AUC 


(e) ROCs and AUCs of Entrances in Subway dataset 


d) 在 8 
层 时 空 卷 积 层 进 行 迁 移 学 习 
将 在 UCSD 数据 集 上 训 
集 上 训练 , 固定 前 


1~1 层 测试 的 AUC 值 。 
时 空 卷 积 层 主要 提取 的 为 行人 的 边缘 、 形 


后 4 层 的 时 空 卷 积 层 
前 4 
上 的 数据 量 较 少 ， 少 量 


故 AUC 值 会 减 小 ， 随 着 固 
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和 


DI-DO3-D6G 
SB1 OS9:48:50 


(dd) 出口 场景 (二 ) 
(d) Exit (2) 


(0) 出 口 场景 (一 ) 


(c) Exit (1) 


1.01 
08] 
全 06] 
寺 
如 
路 041 
42 一 晶 出 口 无 扩充 AUC=0. 5000 
一 9 一 出 口 有 扩充 AUC=0. 8984 
一 FP 一 出 口 无 扩充 加 迁移 学 习 AUC=0. 9820 
0.0] 一 一 出 口 有 扩充 加 迁移 学 习 AUC=0. 9829 
00 02 04 06 08 10 
假 阳 性 率 (FPR) 


( Subway 出 口 场景 ROC 曲线 及 AUC 
(人 ROCs and AUCs of Exits in Subway dataset 


图 8 Subway 数据 集 测 试 结果 


Fig.8 Experimental results in Subway dataset 


层 卷 积 层 的 深度 时 空 卷 积 神经 网 络 中 ,固定 
。 表 4 为 
| 练 的 网 络 ， 迁 移 到 Subway en 


的 能 取得 最 优 检 测 效果 


前 4 


由 于 第 4 层 之 


定 层 数 的 增加 ，!1 


攻 状 等 人 和 群 通 ) 特征， 
主要 提取 为 行人 的 行为 特征 ， 因 此 固定 


于 两 个 数据 


层 的 检测 效果 较 好 。 随 着 固定 层 数 的 减少 , 由 于 Subway 
的 数据 难以 训练 所 有 网 络 层 的 权重 ， 


表 4 不 同 迁 移 层 数 在 Subway 入 口 数据 集 上 测试 AUC 值 


Tab.4AUC values of testing results for different transfer layers on the 


Subway dataset of the entrance 
迁移 层 数 1~! 的 1 取 值 2 3 4 5 6 
AUC 0.8227 0.8883 0.9331 0.9068 0.8734 


5 ”结束 语 
本 文 提 出 一 种 利用 深度 时 空 卷 积 神经 网 络 ， 并 结合 迁移 


I 


的 人 群 异常 行为 的 专用 特征 不 一 样 ， 因 此 只 微调 个 别 高 层 网 
络 的 权重 ， 无 法 拟 合 新 的 数据 集 的 人 群 行为 特征 数据 ， 因 此 
AUC 值 也 会 减 小 。 
表 2 有 无 数据 扩充 和 迁移 学 习 的 对 比 测试 
Tab.2 Comparative results between experiments with DA or TF and 
experiments without DA or TF 
a UCSD 数据 集 Subway 数据 集 
gS 场景 - 场景 = 入 出 吕 
DSTCNN 0.8311 “0.9227 ”0.8792 0.5000 
DSTCNN+DA 0.9960 0.9993 0.8112 0.8984 
DSTCNN+TF 0.9919 0.9877 0.8974 0.9820 
DSTCNN+DA+TF 0.9974 0.9994 0.9331 0.9829 
表 3 与 其 他 经 典 方法 的 对 比 测试 
Tab.3 Comparative results with other classical methods 
法 UCSD 数据 集 Subway 数据 集 
场景 场景 二 入 出 
HOOF 0.6900 0.8200 -0.7740 0.8000 
HOFM 0.7150 0.8990 ”0.8150 0.8450 
HOFME 0.8490 0.8160 0.8160 0.8490 
MDT-temporal 0.8250 0.7650 -0.8890 0.8750 
MDT-spatial 0.6000 0.7500 0.6820 0.6700 
DSTCNN+DA+TF 0.9974 0.9994 0.9331 0.9829 


学 习 实现 人 群 异常 检测 与 定位 的 方法 。 该 方法 中 ， 首 先 根据 
应 用 场景 设计 DSTCNN 结构 ,该 结构 主要 包含 用 于 特征 提取 
的 卷 积 层 与 特征 分 类 的 全 连接 层 及 输出 层 ， 然 后 设计 基于 数 
据 扩充 和 迁移 学 习 的 训练 方法 ， 实 现 DSTCNN 的 训练 和 优 
化 ， 提 高 检测 率 。 在 UCSD 数据 集 和 Subway 数据 集 上 的 测 
试 结果 表明 ， 本 文 的 方法 能 够 有 效 进 行人 群 异常 行为 检测 与 
定位 ， 其 检测 准确 率 高 于 几 种 经 典 方法 。 
同时 ,本 文 方法 也 存在 一 定局 限 性 。 由 于 DSTCNN 计算 
量 较 大 ， 本 文 的 方法 实时 性 难以 满足 实时 性 要 求 高 的 多 路 监 
空 系统 ， 此外， 本 文 方法 只 能 检测 并 定位 异常 ， 无 法 识别 出 


3 


Im| 


\ 体 是 何 种 异常 。 因 此 未 来 的 工作 将 致力 于 优化 算法 ， 提 高 
实时 性 以 及 实现 异常 行为 的 分 类 识别 。 
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